Исследование среды - Искусственный интеллект

Копия Глава 21. Обучение с подкреплением

Исследование среды

Страница 2 из 5

Можно ли выработать более точные рекомендации по сравнению с этими общими рассуждениями? Существует ли оптимальный способ организации исследования среды? Как оказалось, эти вопросы глубоко изучались в той области статистической теории принятий решений, которая касается так называемых задач с п-рукими бандитами, — так принято называть игорные автоматы, управляемые с помощью рукояток (см. врезку).

Рис. 21.4. Производительность агента ADP, действующего с помощью жадного алгоритма, который осуществляет действие, рекомендованное согласно оптимальной стратегии для модели, определяемой с помощью обучения: среднеквадратичная ошибка в оценках полезностей, усредненная по девяти нетерминальным квадратам (а); неоптимальная стратегия, к которой в пределе сходится поиск стратегии, выполняемый агентом с помощью жадного алгоритма, в данной конкретной последовательности попыток (б)

Исследование среды и n-рукие бандиты

В Лас-Вегасе одноруким бандитом называют игорный автомат определенного типа, в который игрок может вложить монету, потянуть за рукоятку и забрать выигрыш (если только таковой действительно появится). Существует также разновидность этого автомата с п рукоятками, называемая n-руким бандитом. Игрок должен выбрать, какую рукоятку следует потянуть на себя после вкладывания каждой следующей монеты, — ту, которая когда-то дала наибольший выигрыш, а может быть, ту, которую он еще не пытался использовать?

<< В начало < Предыдущая 1 2 3 4 5 Следующая > В конец >>